Replay buffer(经验回放缓冲区):在强化学习中用于存储智能体的历史交互经验(通常是状态 s、动作 a、奖励 r、下一状态 s′、终止标记 done 等)的数据结构。训练时从中随机采样小批量数据来更新模型,以降低样本相关性、提高训练稳定性与数据利用率。(在深度强化学习里尤为常见;也常称 experience replay buffer。)
/ˈriːpleɪ ˈbʌfər/
The agent stores each step in a replay buffer.
智能体把每一步的经验都存进经验回放缓冲区。
By sampling uniformly from the replay buffer, the algorithm breaks temporal correlations in the data and improves learning stability in off-policy training.
通过从经验回放缓冲区进行均匀采样,该算法打破了数据的时间相关性,并提升了离策略训练的稳定性。
replay 原意是“重放、再播放”,来自 *re-*(再、重新)+ play(播放/玩);buffer 指“缓冲区/缓冲器”,常见于计算机中用于临时存放数据。合在一起,replay buffer 字面意思就是“用于把过去的数据暂存起来,之后再重放(再取出使用)的缓冲区”,在强化学习语境中引申为“把过去经验拿出来再训练”的存储池。